一步步观察注意力机制如何计算上下文向量
衡量 Query 和每个 Key 的相关性
除以维度的平方根, 防止梯度消失
将分数转换为概率分布, 实现“聚焦”
根据注意力权重, 从 Values 中提取信息